#cuantización w4a4

APEX4: Inferencia eficiente de LLM con W4A4 puro mediante reequilibrio de cómputo intra-SM

Descubre cómo APEX4 optimiza la inferencia de LLMs con cuantización W4A4 pura, logrando hasta 2.09x de aceleración en GPUs como RTX 3090 y A40.